Scenimefy:基于半监督学习的视频动漫风格迁移
“Scenimefy: Learning to Craft Anime Scene via Semi-Supervised Image-to-Image Translation”
南洋理工大学的 MMLab 近日发布了Scenimefy,它通过半监督的图像到图像翻译技术学习如何创建动漫场景。本文已经在 ICCV 2023 上发表,并提供了相关的代码和数据集。数据集包含了高质量的动漫场景图像,但由于版权原因,不能直接发布。
论文地址:https://arxiv.org/pdf/2308.12968.pdf
Github地址:https://yuxinn-j.github.io/projects/Scenimefy.html
摘要
本研究提出了一种名为Scenimefy的半监督图像到图像转换框架,用于自动高质量渲染复杂的现实世界图像中的动漫场景。该方法通过结构一致的伪配对数据进行学习,简化了纯无监督设置。伪数据是通过语义约束的StyleGAN和丰富的模型先验(如CLIP)独特地生成的。我们还应用分割引导的数据选择方法来获得高质量的伪监督。引入了基于补丁的对比风格损失来改善风格化和细节。此外,我们还贡献了一个高分辨率的动漫场景数据集,以促进未来的研究。广泛的实验证明了我们方法的有效性。
简介
生成高质量的动漫场景是一项具有实际和商业价值的学习技术,但目前对于从复杂的现实场景图像中生成动漫场景的研究还不够深入。虽然生成对抗网络(GANs)在自动风格化方面取得了显著进展,但大部分研究主要集中在人脸上。
将真实场景图像转换为动漫风格仍然是一个巨大的挑战,因为场景通常由多个对象组成,它们之间存在复杂的关系,并且前景和背景元素之间存在固有的层次关系。动漫具有独特的纹理和复杂的设计特征。在动画场景中模仿真实场景的困难之处,包括难以模仿手绘的有机纹理和尖锐边缘的挑战,以及真实场景和动画场景之间的领域差距和数据缺乏的问题。现有的动画场景数据集中包含许多与背景场景风格不同的人脸和前景物体,导致其质量较低。
无监督图像转换是一种解决复杂场景风格化的典型方法,但现有的动漫风格方法存在一些问题,如难以保留语义内容和细节,可能会出现不自然的结果和明显的伪影。一些方法的限制在于手工制作的动漫特定损失或预提取的表示,这些方法无法生成细节丰富的动漫场景。
本文提出了一种名为Scenimefy的半监督图像到图像转换方法,用于生成高质量的动漫风格场景图像。通过引入一个新的监督训练分支,利用生成的伪配对数据来克服无监督训练的困难。通过精细调整StyleGAN来生成真实和动漫之间的粗配对数据,称为伪配对数据。通过使用CLIP和VGG等预训练模型先验来指导StyleGAN捕捉复杂的场景特征和减轻过拟合,提出了一种新的语义约束的精细调整策略。通过引入分割引导的数据选择方案来过滤低质量的数据。利用伪配对数据,Scenimefy学习有效的像素对应关系,并通过一种新颖的基于补丁的对比风格损失生成两个域之间的细节。与无监督训练分支一起,我们的半监督框架在场景风格化的忠实度和保真度之间寻求理想的平衡。
本文介绍了一种名为Scenimefy的动漫场景生成模型,通过收集高质量的动漫场景数据集进行训练,实验结果表明该模型在感知质量和定量评估方面均优于现有基线模型。本文的主要贡献在于提出了Scenimefy模型,并证明了其有效性。
提出了一种新颖的半监督图像到图像的方法。这个框架可以从真实图像生成高质量的复杂动漫场景图像。框架采用了新的分块对比风格损失来改善风格化和细节。
训练监督使用了由语义约束的StyleGAN微调策略生成的结构一致的伪配对数据,并采用了分割引导的数据选择方案。
我们收集了一个高分辨率的动漫场景数据集,以促进未来的场景风格化研究。
相关工作
图像到图像的转换分为有监督和无监督两种,前者需要成对的训练数据,后者则基于循环一致性约束。CUT是一种基于对比学习的无监督图像翻译模型,适用于场景风格化。因此,我们使用CUT作为无监督训练分支。
StyleGAN的领域适应是一个活跃的研究领域,旨在转移预训练模型的知识。GANs适应新领域的策略包括可学习参数选择、数据增强和正则化项。FreezeG通过冻结生成器的低分辨率层来保持源领域的结构。最近的研究通过在CLIP嵌入空间中计算领域差距方向来引导属性级适应。然而,StyleGAN适应仍然存在固定图像分辨率、复杂场景建模、过拟合和不希望的语义伪影等问题。相比之下,我们的语义约束策略、数据选择和半监督框架能够很好地解决这些问题。
场景风格动漫化。本文提出了一种半监督的图像到图像转换框架,利用伪配对数据指导卡通化过程。引入了一个补丁构造损失来维护内容一致性并更好地学习本地卡通纹理。与现有的方法不同,本文的方法能够更好地合成手绘风格的动漫场景。
方法论
本文提出了一种名为Scenimefy的方法,旨在在保留场景语义的同时,使用细粒度的动漫纹理来美化自然场景。该方法包括三个步骤:伪配对数据生成、分割引导数据选择和半监督图像翻译。
伪配对数据生成
使用配对数据可以缩小现实和动漫场景之间的领域差距,建立语义和风格对应关系,从而简化标准的无监督I2I翻译。虽然StyleGAN可以合成高质量的图像,但动漫场景的复杂性需要精心设计的微调策略,以生成可信的伪配对数据。
通过在真实场景数据集上预训练源StyleGAN Gs,然后在动漫场景数据集上微调,得到Gt。然后,我们可以使用随机潜在代码w生成具有语义相似性的配对数据{xp, yp},其中xp = Gs(w) ∈Xp,yp = Gt(w) ∈Yp。在微调过程中,我们冻结生成器的初始块和初始样式向量,以保留空间布局。
为了更好地保护特定类别的对象,我们建议使用预训练模型先验,如VGG和CLIP,引导YP遵循XP的语义属性。具体来说,我们使用CLIP损失来最小化两个图像在CLIP空间嵌入之间的余弦距离,并使用感知损失来约束整体。
DCLIP是在CLIP空间中使用的余弦距离,lpips是感知损失,λlpips是损失权重。
为了更好地维护本地空间信息和细节,我们采用了基于补丁的对比损失(PatchNCE),受到CUT [29]的启发,它将生成器的嵌入特征应用于对比学习。我们使用预训练的CLIP模型提取特征嵌入,而不是使用可能在微调过程中引起潜在不平衡问题的额外MLP头网络 [20]。具体来说,我们在xp和yp中随机裁剪补丁,并使用CLIP编码器E进行嵌入,如图3所示。然后,我们将相同位置裁剪的正补丁靠近,将从不同位置裁剪的负补丁远离。设v表示来自yp的嵌入查询补丁。设v+和{vi−}Ni=1分别为来自xp的嵌入正补丁和N个负补丁。补丁损失可以写成:
这个阶段的总损失函数可以写成:
LtGAN是对抗性损失,D是Style-GAN鉴别器。λglobal和λpatch是损失权重。
语义分割引导的数据选择
通过伪配对数据生成,我们得到了一个具有粗略像素对应关系的合成配对数据集。然而,这种原始伪配对数据仍然存在低质量或结构不一致的风险,需要进行数据过滤。
本文提出了一种基于语义分割的数据选择方案,以清除结构不一致的低质量样本。使用Mask2Former模型进行伪配对数据过滤,根据语义一致性和语义丰富度设计了两个标准。保留的图像和预测掩模的可视化结果表明该方法的有效性。通过图3可以看出,在这个阶段后,剩余的伪配对数据的质量得到了改善。
半监督图像到图像转换
本文介绍了一个半监督的图像翻译框架,包括监督和非监督两个分支。通过真实场景图像和动漫图像数据集,学习一个从真实场景到动漫的映射。训练过程详见上文。
监督训练分支
本算法使用有监督训练分支来利用领域Xp和Yp之间的粗略像素对应关系,从而促进复杂场景风格化的训练和语义映射。有监督分支基于条件GAN框架,使用条件对抗损失进行训练。
DP是一个补丁鉴别器,旨在区分{(yp,xp)}和{(G(xp),xp)},其中(·,·)表示连接操作。
使用基于对比度的样式损失进行监督。与传统的监督框架不同,本文的真实目标图像位于Yp而不是真实目标Y。该框架的灵感是,对于一个好的翻译,翻译后的每个补丁应该类似于伪地面真实图像中的相应补丁,而不是完全相同。这些补丁应该被嵌入到相同位置更接近,而来自不同位置的补丁应该更远。StylePatchNCE损失函数用于训练模型学习局部风格相似性和细节。将生成器G分为编码器Genc和解码器Gdec两个组件,通过Genc计算的特征堆栈可用于图像转换,其中每个元素对应输入图像的一个补丁。为了捕捉不同粒度的动漫纹理,从Genc的L个层中选择多尺度特征。
提出的StylePatchNCE损失可以被表述为:
Lstylepatch与Lpatch具有相同的对比损失形式。补丁级别的约束使得G的训练更加容易。
监督分支的训练目标如下:
λstyle是StylePatchNCE损失的权重。
无监督训练分支
无监督分支直接使用原始高质量真实数据集和动漫数据集来学习真正的目标领域分布。受Jung等人的启发。在复杂场景图像中,处理图像块的异构语义关系非常重要。例如,来自山脉或海洋的图像块及其不同部分具有不同的语义信息,应该考虑和保留这种语义关系,以实现合理的无监督场景风格化。
我们使用语义关系一致性损失和硬负对比损失来训练模型。语义关系一致性损失通过最小化图像补丁相似性分布的Jensen-Shannon散度来增强翻译过程中的语义一致性。硬负对比损失通过逐渐增加负样本的区分难度来增强模型的区分能力。我们将这两种损失应用于由Genc和F提取的x和G(x)的特征上。
无监督分支的损失如下:
整体训练
Scenimefy的框架是半监督的,旨在在场景风格化的忠实性和保真度之间寻求平衡。完整的损失函数定义如下:
训练过程中,λsup会随着时间逐渐下降,遵循余弦函数的规律。
实验
设置
数据集。本方法是一个半监督的图像到图像翻译框架,训练数据集包括真实世界场景照片和动漫场景图像,以及伪配对数据集。在训练过程中,所有图像都被调整为256×256的分辨率。
真实场景照片。使用了来自Landscapes High-Quality (LHQ)数据集的90,000张自然景观图像作为训练集,并使用CycleGAN作者提供的6,656张场景图像作为测试集。
动漫场景照片。本研究构建了一个高分辨率的纯动漫场景数据集,包括5958张图片。他们从9部著名的新海诚电影中收集了关键帧,并手动筛选了相关和低质量的图片。这个数据集不包含随机裁剪的人物肖像,以减少过拟合问题。该数据集将公开提供以促进未来的场景风格化研究。
伪对比数据集。本文介绍了一个伪对比数据集,其中从源StyleGAN生成器和经过微调的生成器中随机抽取了30,000对具有相同潜在代码的图像。为了改善数据质量而不牺牲多样性,使用了轻微的截断技巧。同时,还应用了基于分割的数据选择方法来改善数据质量。
基线。本文介绍了五种最先进的基准模型,整体可以分为两类图像转换方法:一类是针对场景卡通化的定制方法,如CartoonGAN、AnimeGAN、White-box和CTSS;另一类是基于StyleGAN的方法,如VToonify。
实现细节。本文使用StyleGAN2生成器在LHQ数据集上进行训练,然后在自己收集的动漫数据集上进行微调。训练过程中,最后三层可训练,其余层冻结。使用特定的超参数进行训练,并生成了30,000个伪对数据。无监督训练分支基于最近的图像转换模型进行实现。Scenimefy在单个NVIDIA GeForce RTX 3090 GPU上进行了20个epoch的训练,使用了特定的超参数。更详细的设置在附录中提供。
评估指标。我们使用Fréchet Inception Distance(FID)来衡量翻译图像的感知质量。FID是在6605个生成的图像和我们引入的动漫场景数据集之间计算的。较低的值表示更好的图像质量。此外,我们进行了用户研究,候选方法在风格化、语义保留和整体翻译质量方面进行评分。较高的分数表示更好的图像质量。
结果
定性比较。通过与五种最先进的方法进行定性比较,展示了我们的结果在风格保真度和语义忠实度之间取得了合理的平衡。与之前的方法相比,我们的方法能够更好地保留细节,并且能够捕捉到动漫纹理特征。其他方法要么过于注重内容一致性而忽视了动漫风格,要么变成了图像抽象方法,导致细节丢失。我们的方法在保持语义一致性的同时,成功地模拟了动漫的纹理特征。本文提出的模型能够在感知质量方面优于现有的基准。详细结果可见附录。
定量结果。表格展示了我们的方法与基线方法的定量评估结果,证明我们的方法在FID得分上最低,表明我们的翻译结果质量最好,与我们更高的视觉质量一致。我们还测试了真实场景数据集和动漫场景数据集之间的FID作为参考。我们的结果的风格分布比真实场景更接近动漫领域。
本研究使用FID和用户评估两种方法来评估动漫场景渲染的质量。用户评估包括三个标准:明显的动漫风格化、一致的语义保留和整体翻译表现。30名参与者选择了六种不同方法在10组图像中的最佳结果。结果表明,Scenimefy在所有三个标准中得分最高,证明了该方法的有效性。
消融学习
StyleGAN fine-tuning。实验结果表明,若不冻结预训练模型的浅层,会导致空间结构严重改变;若去除全局约束,会导致特定类别的对象无法保留;若去除局部一致性损失,会导致细节丢失。而应用所有预训练模型约束,可以准确生成有效的图像对,保持语义结构,且具有更少的伪影。
半监督图像到图像翻译框架。通过逐个独立删除每个关键模块的系统削减研究来验证其有效性。通过联合监督和无监督学习,实现了对动漫风格的全局和局部纹理风格化。实验结果表明,单独训练每个分支会导致较差的输出,而本文提出的方法能够有效地提高动漫渲染能力,包括动漫纹理细节、和谐的颜色和更少的噪声。
定量比较。本文使用LBCE指标对语义一致性进行定量比较,结果表明我们的设计在Style-GAN fine-tuning和I2I translation实验中都取得了最佳得分,证明了其在语义保留方面的有效性。其中,Style-GAN fine-tuning实验生成了3000张图像,I2I translation实验使用了6656张图像。
进一步分析
其他动漫风格。模型在Hosoda Mamoru数据集上进行了训练,验证了其适用于不同的动漫风格。该数据集包含了来自同一电影帧的相似场景裁剪图像,以及大量的人物肖像。本文介绍了一种基于卷积神经网络的动漫风格转换方法,通过学习不同动漫风格的特征,将输入图像转换为目标风格的图像。该方法使用了全局感知损失来保持内容一致性,并在实验中取得了良好的效果。
动漫纹理迁移。模型能够保持动漫场景的特点,如平滑的岩石、干草捆、汽车和背景植物,以及细节丰富的前景植物和曲线边缘的栅栏。与其他基线模型相比,该模型更符合真实动漫的特点,而其他模型过于强调对原始真实图像的忠实度,使得结果看起来不太像真正的动漫。
视频的时间一致性。本方法可以将单个帧转换为视频风格化,保持平滑和连贯的视觉信息。在图11中展示了一些代表性帧的结果。
总结
本文提出了Scenimefy框架,用于动漫场景渲染,包括伪配对数据生成、语义分割引导数据选择和半监督图像到图像转换三个阶段。此外,我们还贡献了一个高分辨率的动漫场景数据集,以促进未来的场景风格化研究。我们的结果经验证明,使用软伪配对数据引导可以有效平衡风格的忠实度和语义的忠实度,简化了纯无监督设置。对比风格损失有助于生成细节丰富的图像。Scen-imefy在感知质量和定量性能方面优于现有基线模型。然而,仍有一些改进的空间,如明确控制风格化程度和实现用户输入风格的更灵活翻译。最近扩散模型的突破使图像生成能力得到了显著提升。通过利用这些进展,我们可以获得具有增强细节的改进伪配对数据。我们相信利用大规模文本到图像模型的潜力可以进一步提高自动动漫场景渲染的质量。
灵度智能,我们致力于提供优质的AI服务,涵盖人工智能、数据分析、机器学习、深度学习、强化学习、计算机视觉、自然语言处理、语音处理等领域。提供AI课程、AI算法代做、论文复现、远程调试等服务。如有相关需求,请私信与我们联系。
我们的愿景通过创新创意和智能技术为客户提供卓越的解决方案,助力产业升级和数字化转型。我们的产品和服务将引领行业标准,创造卓越的用户体验。我们的团队致力于创造更智能、更便捷和更高效的生活方式,推动社会进步,致力于创造更美好的未来。
关注【灵度智能】公众号,获取更多AI资讯。